2024-12-2

要点:

  • 一个新的计算范式
  • 一个三值系统,{-1,0,1}形成 1bit LLMs

此外,BitNetb1.58 还提供了两个额外的优势。首先,由于模型权重中包含 0,使其能够显式支持特征过滤,从而显著提高了 1-bitLLMs 的性能,因此其建模能力更强。其次,我们的实验表明,从 3B 规模开始,使用相同的配置 (例如,模型大小、训练令牌等),BitNetb1.58 在困惑度和最终任务性能方面可以与全精度 (即 FP16) 基线相匹配。

W1.58A8

BitNetb1.58 基于 BitNet 架构,该架构是一个 Transformer, 用 BitLinear 替换了 nn.Linear。它是从头开始训练的,具有 1.58 位权重和 8 位激活。